最近的作品在使用卷积神经网络(CNN)的双像素数据基于defocus Deblurring任务方面取得了出色的成果,而数据的稀缺性限制了视觉变压器在此任务中的探索和尝试。此外,现有作品还使用固定参数和网络体系结构来删除具有不同分布和内容信息的图像,这也影响了模型的概括能力。在本文中,我们提出了一个动态多尺度网络,名为DMTNET,用于双像素图像Defocus DeBlurring。 DMTNET主要包含两个模块:特征提取模块和重建模块。该特征提取模块由几个视觉变压器块组成,该模块使用其强大的特征提取能力来获得更丰富的功能并改善模型的鲁棒性。重建模块由几个动态多尺度子重构模块(DMSSRM)组成。 DMSSRM可以根据输入图像的模糊分布和内容信息自适应地分配权重来恢复图像。 DMTNET结合了变压器和CNN的优势,其中视觉变压器改善了CNN的性能上限,并且CNN的电感偏置使变压器能够在不依赖大量数据的情况下提取更强大的功能。 DMTNET可能是首次使用视觉变压器来恢复模糊图像以清晰的尝试。通过与CNN结合,视觉变压器可以在小数据集上实现更好的性能。对流行基准测试的实验结果表明,我们的DMTNET显着优于最先进的方法。
translated by 谷歌翻译
基于变压器的方法与基于CNN的方法相比,由于其对远程依赖性的模型,因此获得了令人印象深刻的图像恢复性能。但是,像Swinir这样的进步采用了基于窗口的和本地注意力的策略来平衡性能和计算开销,这限制了采用大型接收领域来捕获全球信息并在早期层中建立长期依赖性。为了进一步提高捕获全球信息的效率,在这项工作中,我们建议Swinfir通过更换具有整个图像范围的接收场的快速傅立叶卷积(FFC)组件来扩展Swinir。我们还重新访问其他先进技术,即数据增强,预训练和功能集合,以改善图像重建的效果。并且我们的功能合奏方法使模型的性能得以大大增强,而无需增加训练和测试时间。与现有方法相比,我们将算法应用于多个流行的大规模基准,并实现了最先进的性能。例如,我们的Swinfir在漫画109数据集上达到了32.83 dB的PSNR,该PSNR比最先进的Swinir方法高0.8 dB。
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
多视图子空间聚类传统上专注于集成异构特征描述以捕获更高维度信息。一种流行的策略是从不同视图生成常见的子空间,然后应用基于图形的方法来处理群集。但是,这些方法的性能仍然受到两个限制,即多视图融合模式以及融合过程与聚类任务之间的连接。为了解决这些问题,我们通过细粒度图形学习提出了一种新的多视图子空间聚类框架,可以在不同视图之间讲述本地结构之间的一致性,并比以前的重量规则更精细地集成所有视图。与文献中的其他模型不同,引入了点级图正规化和频谱聚类的重新介绍,以执行图形融合并将共享集群结构一起学习在一起。在五个真实数据集上进行了广泛的实验,表明该框架对SOTA算法具有可比性。
translated by 谷歌翻译
在输入图像的限制区域中工艺像素的对抗贴片攻击在物理环境中表明了它们在物理环境中的强大攻击效果。现有的认证防御对逆势补丁攻击的攻击良好,如MNIST和CIFAR-10数据集,但在图像上的更高分辨率图像上达到非常差的认证准确性。迫切需要在行业级更大的图像中针对这种实际和有害的攻击设计强大和有效的防御。在这项工作中,我们提出了认证的国防方法,以实现高分辨率图像的高可规范稳健性,并且在很大程度上提高了真正采用认证国防的实用性。我们的工作的基本洞察力是对抗性补丁打算利用局部表面的重要神经元(SIN)来操纵预测结果。因此,我们利用基于SIN的DNN压缩技术来通过减少搜索开销和过滤预测噪声的对抗区域来显着提高认证准确性。我们的实验结果表明,认证准确性从想象成数据集中的36.3%(最先进的认证检测)增加到60.4%,在很大程度上推动了实际使用的认证防御。
translated by 谷歌翻译
Neural Machine Translation (NMT) is an end-to-end learning approach for automated translation, with the potential to overcome many of the weaknesses of conventional phrase-based translation systems. Unfortunately, NMT systems are known to be computationally expensive both in training and in translation inference -sometimes prohibitively so in the case of very large data sets and large models. Several authors have also charged that NMT systems lack robustness, particularly when input sentences contain rare words. These issues have hindered NMT's use in practical deployments and services, where both accuracy and speed are essential. In this work, we present GNMT, Google's Neural Machine Translation system, which attempts to address many of these issues. Our model consists of a deep LSTM network with 8 encoder and 8 decoder layers using residual connections as well as attention connections from the decoder network to the encoder. To improve parallelism and therefore decrease training time, our attention mechanism connects the bottom layer of the decoder to the top layer of the encoder. To accelerate the final translation speed, we employ low-precision arithmetic during inference computations. To improve handling of rare words, we divide words into a limited set of common sub-word units ("wordpieces") for both input and output. This method provides a good balance between the flexibility of "character"-delimited models and the efficiency of "word"-delimited models, naturally handles translation of rare words, and ultimately improves the overall accuracy of the system. Our beam search technique employs a length-normalization procedure and uses a coverage penalty, which encourages generation of an output sentence that is most likely to cover all the words in the source sentence. To directly optimize the translation BLEU scores, we consider refining the models by using reinforcement learning, but we found that the improvement in the BLEU scores did not reflect in the human evaluation. On the WMT'14 English-to-French and English-to-German benchmarks, GNMT achieves competitive results to state-of-the-art. Using a human side-by-side evaluation on a set of isolated simple sentences, it reduces translation errors by an average of 60% compared to Google's phrase-based production system.
translated by 谷歌翻译
Pre-trained language models are trained on large-scale unsupervised data, and they can be fine-tuned on small-scale labeled datasets and achieve good results. Multilingual pre-trained language models can be trained on multiple languages and understand multiple languages at the same time. At present, the research on pre-trained models mainly focuses on rich-resource language, while there is relatively little research on low-resource languages such as minority languages, and the public multilingual pre-trained language model can not work well for minority languages. Therefore, this paper constructs a multilingual pre-trained language model named MiLMo that performs better on minority language tasks, including Mongolian, Tibetan, Uyghur, Kazakh and Korean. To solve the problem of scarcity of datasets on minority languages and verify the effectiveness of the MiLMo model, this paper constructs a minority multilingual text classification dataset named MiTC, and trains a word2vec model for each language. By comparing the word2vec model and the pre-trained model in the text classification task, this paper provides an optimal scheme for the downstream task research of minority languages. The final experimental results show that the performance of the pre-trained model is better than that of the word2vec model, and it has achieved the best results in minority multilingual text classification. The multilingual pre-trained language model MiLMo, multilingual word2vec model and multilingual text classification dataset MiTC are published on https://milmo.cmli-nlp.com.
translated by 谷歌翻译
最近,作品数量表明,通过使用视觉信息,可以在一定程度上改进神经机器翻译(NMT)的性能。但是,这些结论中的大多数是根据基于有限的双语句子图像对的实验结果的分析得出的,例如Multi30k。在这类数据集中,必须通过手动注释的图像很好地表示一个双语平行句子对的内容,这与实际翻译情况不同。提出了一些先前的作品,以通过从退出的句子图像对中检索图像与主题模型来解决问题。但是,由于他们使用的句子图像对收集有限,因此很难处理其图像检索方法,并且很难证明视觉信息增强了NMT,而不是图像和图像的共发生句子。在本文中,我们提出了一种开放式摄影图像检索方法,以使用图像搜索引擎收集双语平行语料库的描述性图像。接下来,我们提出文本感知的专注视觉编码器,以过滤错误收集的噪声图像。多30K和其他两个翻译数据集的实验结果表明,我们提出的方法对强基础可取得重大改进。
translated by 谷歌翻译
在这项工作中,我们提出了一个置换不变的语言模型Symphonynet,作为象征性交响音乐生成的解决方案。我们建议使用基于变压器的自动回归语言模型具有特定的3-D位置嵌入的新型多通道可重复的多磁场(MMR)表示,并模拟音乐序列。为了克服长度溢出在建模超长的交响令牌时,我们还提出了一对经过修改的字节对编码算法(音乐bpe)用于音乐令牌,并引入了一种新颖的线性变压器解码器架构作为骨干。同时,我们通过从输入中掩盖仪器信息来训练解码器将自动编排作为联合任务学习。我们还引入了一个大规模的符号交响数据集,以进行交响曲生成研究的发展。经验结果表明,所提出的方法可以产生连贯,新颖,复杂和和谐的交响曲,作为多轨多训练符号音乐生成的先驱解决方案。
translated by 谷歌翻译
通过FPGA加速神经网络推断作为一种流行的选择,因为FPGA的重新配置性和高性能计算能力本质上满足了快速发展神经算法的计算需求。然而,FPGA(例如,Xilinx DPU)上的受欢迎的神经加速器主要利用DSP资源来构建其处理单元,而丰富的LUT资源没有充分利用。通过软件 - 硬件共同设计方法,在这项工作中,我们开发了一种基于FPGA的异构计算系统,用于神经网络加速度。从硬件角度来看,所提出的加速器由基于DSP和LUT的一般矩阵乘法(GEMM)计算核心组成,其以异质方式形成整个计算系统。基于DSP和LUT的GEMM核心计算为W.R.T统一指令集架构(ISA)和Unified Buffers。沿着神经网络推理路径的数据流,卷积/完全连接层的计算分为两部分,由基于DSP和LUT的GEMM核心异步处理。从软件的角度来看,我们在数学上和系统地模拟所提出的异构加速器的延迟和资源利用,关于不同的系统设计配置。通过利用加强学习技术,我们构建一个框架,实现目标异构加速器的设计规范的端到端选择和优化,包括工作量分裂策略,混合精度量化方案和DSP和LUT的资源分配 - 核。凭借提出的设计框架和异构计算系统,我们的设计优于最先进的混合和匹配设计,延迟减少了1.12-1.32倍,推理准确性更高。 N3H核心是开放的:https://github.com/elliothe/n3h_core。
translated by 谷歌翻译